语义通信引起了人们的兴趣,因为它可以显着减少在不丢失关键信息的情况下要传输的数据量。大多数现有作品都探索文本的语义编码和传输,并在自然语言处理(NLP)中应用技术来解释文本的含义。在本文中,我们构想了图像数据的语义通信,这些语义数据在语义和带宽敏感方面更为丰富。我们提出了一种基于增强学习的自适应语义编码(RL-ASC)方法,该方法编码超过像素级别的图像。首先,我们定义了图像数据的语义概念,该概念包括类别,空间布置和视觉特征作为表示单元,并提出卷积语义编码器以提取语义概念。其次,我们提出了图像重建标准,该标准从传统像素的相似性演变为语义相似性和感知性能。第三,我们设计了一种基于RL的新型语义位分配模型,其奖励是用自适应量化水平编码某个语义概念后的速率语义感知性能的提高。因此,与任务相关的信息得到正确保存和重建,同时丢弃了较少重要的数据。最后,我们提出了基于生成的对抗网(GAN)的语义解码器,该语义解码器通过注意模块融合本地和全球特征。实验结果表明,所提出的RL-ASC具有噪声稳定性,可以重建视觉上令人愉悦和语义一致的图像,并节省与标准编解码器和其他基于深度学习的图像编解码器相比,可以节省位置的时间。
translated by 谷歌翻译
Autonomous robotic surgery has advanced significantly based on analysis of visual and temporal cues in surgical workflow, but relational cues from domain knowledge remain under investigation. Complex relations in surgical annotations can be divided into intra- and inter-relations, both valuable to autonomous systems to comprehend surgical workflows. Intra- and inter-relations describe the relevance of various categories within a particular annotation type and the relevance of different annotation types, respectively. This paper aims to systematically investigate the importance of relational cues in surgery. First, we contribute the RLLS12M dataset, a large-scale collection of robotic left lateral sectionectomy (RLLS), by curating 50 videos of 50 patients operated by 5 surgeons and annotating a hierarchical workflow, which consists of 3 inter- and 6 intra-relations, 6 steps, 15 tasks, and 38 activities represented as the triplet of 11 instruments, 8 actions, and 16 objects, totaling 2,113,510 video frames and 12,681,060 annotation entities. Correspondingly, we propose a multi-relation purification hybrid network (MURPHY), which aptly incorporates novel relation modules to augment the feature representation by purifying relational features using the intra- and inter-relations embodied in annotations. The intra-relation module leverages a R-GCN to implant visual features in different graph relations, which are aggregated using a targeted relation purification with affinity information measuring label consistency and feature similarity. The inter-relation module is motivated by attention mechanisms to regularize the influence of relational features based on the hierarchy of annotation types from the domain knowledge. Extensive experimental results on the curated RLLS dataset confirm the effectiveness of our approach, demonstrating that relations matter in surgical workflow analysis.
translated by 谷歌翻译
We develop a distributed Block Chebyshev-Davidson algorithm to solve large-scale leading eigenvalue problems for spectral analysis in spectral clustering. First, the efficiency of the Chebyshev-Davidson algorithm relies on the prior knowledge of the eigenvalue spectrum, which could be expensive to estimate. This issue can be lessened by the analytic spectrum estimation of the Laplacian or normalized Laplacian matrices in spectral clustering, making the proposed algorithm very efficient for spectral clustering. Second, to make the proposed algorithm capable of analyzing big data, a distributed and parallel version has been developed with attractive scalability. The speedup by parallel computing is approximately equivalent to $\sqrt{p}$, where $p$ denotes the number of processes. Numerical results will be provided to demonstrate its efficiency and advantage over existing algorithms in both sequential and parallel computing.
translated by 谷歌翻译
图形神经网络(GNNS)在图表表示学习中获得了动力,并在各种领域(例如数据挖掘)(\ emph {e.g。,}社交网络分析和推荐系统),计算机视觉(\ emph {例如,}对象检测和点云学习)和自然语言处理(\ emph {e.g。,}关系提取和序列学习),仅举几例。随着自然语言处理和计算机视觉中变压器的出现,图形变压器将图形结构嵌入到变压器体系结构中,以克服局部邻域聚集的局限性,同时避免严格的结构电感偏见。在本文中,我们从面向任务的角度介绍了计算机视觉中GNN和图形变压器的全面综述。具体来说,我们根据输入数据的模式,\ emph {i.e。,} 2D自然图像,视频,3D数据,Vision +语言和医学图像,将其在计算机视觉中的应用分为五个类别。在每个类别中,我们根据一组视觉任务进一步对应用程序进行划分。这种面向任务的分类法使我们能够检查如何通过不同的基于GNN的方法以及这些方法的表现如何解决每个任务。基于必要的初步,我们提供了任务的定义和挑战,对代表性方法的深入报道以及有关见解,局限性和未来方向的讨论。
translated by 谷歌翻译
由于预计不断增长的3D视觉应用程序将为用户提供具有成本效益和高质量的体验,因此人们非常强调点云的视觉质量。回顾点云质量评估(PCQA)方法的开发,通常通过使用单模式信息,即从2D投影或3D点云中提取的视觉质量进行评估。 2D投影包含丰富的纹理和语义信息,但高度依赖于观点,而3D点云对几何变形更敏感,并且对观点不变。因此,为了利用点云和投影图像模式的优势,我们提出了一种新型的无引用点云质量评估(NR-PCQA),以多模式方式进行。在具体上,我们将点云分为子模型,以表示局部几何变形,例如点移和下采样。然后,我们将点云渲染为2D图像投影,以进行纹理特征提取。为了实现目标,子模型和投影图像由基于点和基于图像的神经网络编码。最后,使用对称的跨模式注意来融合多模式质量意识的信息。实验结果表明,我们的方法的表现都优于所有最新方法,并且远远超过了先前的NR-PCQA方法,这突出了所提出方法的有效性。
translated by 谷歌翻译
成本敏感的分类对于错误分类错误的成本差异很大,至关重要。但是,过度参数化对深神经网络(DNNS)的成本敏感建模构成了基本挑战。 DNN完全插值训练数据集的能力可以渲染DNN,纯粹在训练集上进行评估,无效地区分了成本敏感的解决方案和其总体准确性最大化。这需要重新思考DNN中的成本敏感分类。为了应对这一挑战,本文提出了一个具有成本敏感的对抗数据增强(CSADA)框架,以使过度参数化的模型成本敏感。总体想法是生成针对性的对抗示例,以推动成本感知方向的决策边界。这些有针对性的对抗样本是通过最大化关键分类错误的可能性而产生的,并用于训练一个模型,以更加保守的对成对的决策。公开可用的有关著名数据集和药物药物图像(PMI)数据集的实验表明,我们的方法可以有效地最大程度地减少整体成本并减少关键错误,同时在整体准确性方面达到可比的性能。
translated by 谷歌翻译
由于空间分辨率的巨大改进,4K内容可以为消费者提供更严肃的视觉体验。但是,由于分辨率扩大和特定的扭曲,现有的盲图质量评估(BIQA)方法不适合原始和升级的4K内容物。在本文中,我们提出了一个针对4K内容的深度学习的BIQA模型,一方面可以识别True和pseudo 4K内容,另一方面可以评估其感知视觉质量。考虑到高空间分辨率可以代表更丰富的高频信息的特征,我们首先提出了基于灰色级别的共发生矩阵(GLCM)的纹理复杂度度量,以从4K图像中选择三个代表性图像贴片,这可以减少计算复杂性,被证明对通过实验的总体质量预测非常有效。然后,我们从卷积神经网络(CNN)的中间层中提取不同种类的视觉特征,并将它们集成到质量感知的特征表示中。最后,使用两个多层感知(MLP)网络用于将质量感知功能映射到类概率和每个贴片的质量分数中。总体质量指数是通过平均贴片结果汇总获得的。提出的模型通过多任务学习方式进行了训练,我们引入了不确定性原理,以平衡分类和回归任务的损失。实验结果表明,所提出的模型的表现均优于所有4K内容质量评估数据库中的BIQA指标。
translated by 谷歌翻译
深度图像置位者实现最先进的结果,但具有隐藏的成本。如最近的文献所见,这些深度网络能够过度接受其训练分布,导致将幻觉不准确地添加到输出并概括到不同的数据。为了更好地控制和解释性,我们提出了一种新颖的框架,利用了去噪网络。我们称之为可控的基于席位的图像去噪(CCID)。在此框架中,我们利用深度去噪网络的输出与通过可靠的过滤器卷积的图像一起。这样的过滤器可以是一个简单的卷积核,其不会增加添加幻觉信息。我们建议使用频域方法熔断两个组件,该方法考虑了深网络输出的可靠性。通过我们的框架,用户可以控制频域中两个组件的融合。我们还提供了一个用户友好的地图估算,空间上的置信度可能包含网络幻觉。结果表明,我们的CCID不仅提供了更多的可解释性和控制,而且甚至可以优于深脱离机构的定量性能和可靠的过滤器的定量性能,尤其是当测试数据从训练数据发散时。
translated by 谷歌翻译
尽管有多样化的环境进展,但蛇机器人仍然远远落后于穿越大障碍物的复杂的3-D地形。这是由于缺乏对如何控制3-D体弯曲以推动地形特征来产生和控制推进的理解。生物学研究表明,总体蛇使用接触力传感来实时调整身体弯曲。然而,由于缺乏对其力传感器官如何工作的基本知识,研究蛇中的这种感觉调制的力量控制是挑战性的。在这里,我们采取了一种robophysics方法来进行进步,从开发一个能够使用接触力感测的3-D体弯曲的蛇机器人来实现,以实现系统的运动实验和力量测量。通过两个开发和测试迭代,我们创建了一个12段机器人,其中36个压电板传感器分布在所有段上,具有符合30 Hz的采样频率的符合壳体。机器人测量接触力,同时使用具有高可重复性的垂直弯曲来横穿大障碍,实现为提供系统实验的平台的目标。最后,考虑到压电传感器的粘弹性行为,我们探讨了基于模型的校准,这将为未来的研究有用。
translated by 谷歌翻译
在训练阶段通常使用辍学作为正则化方法,并用于量化深度学习的不确定性。我们建议在培训期间使用辍学以及推理步骤,以及平均多种预测,以提高准确性,同时减少和量化不确定性。评估结果对仅3方向扫描获得的分数各向异性(FA)和平均扩散率(MD)映射。通过我们的方法,与无丢失的网络输出相比,可以显着提高准确性,特别是当训练数据集很小时。此外,产生置信度图,这可能有助于诊断看不见的病理学或伪影。
translated by 谷歌翻译